Python生成式AI基礎：從統計到語境：自然語言處理的演進

自然語言處理的演進代表了一種根本性的轉變，即從將語言視為離散、孤立的符號，轉向將其映射到連續的多維向量空間。我們已從簡單的特徵基礎表示法進展為深層語義映射。

統計時代（稀疏）: 早期的自然語言處理依賴於TF-IDF算法。雖然對檢索有效，但存在「稀疏性困境」。在TF-IDF系統中，「醫師」與「醫生」是正交向量——數學上，它們之間無任何關係。
分布式革命（神經網絡語言模型與Word2Vec）: 神經網絡語言模型引入了密集向量。Word2Vec（Skip-gram/CBOW）學習到，在相似語境中出現的詞應為空間上的鄰近詞。
全局統計（GloVe）: 全局向量透過分析整個語料庫中的全局共現情況來彌補差距，確保距離反映數學上的語義相似性。

深入洞察

從計算出現次數轉向預測語境，使模型能捕捉細微差異。這種「分布式表示」意味著單一詞語的含義分散在數百個向量維度中，每一維可能代表一個潛在的語義特徵，例如性別、王權或醫學背景。